【扎克伯格面向AGI开源】Llama 3重磅发布：全球最强开源大模型，GPT4级别开源权重

opencat AI寒武纪 2024-04-20

前几天某度CEO刚刚说完开源模型会越来越落后，今天扎克伯格就放出开源王炸：‍‍‍‍‍‍‍‍‍‍Meta Llama 3横空出世，这是人工智能发展一个历史性时刻

Llama 3系列首发两款模型：80亿参数(Llama 3 8B)和700亿参数(Llama 3 70B)版本，更为强大的版本4000亿参数（Llama 3 400B）还在训练，未来几个月将会发布

Llama 3不仅在性能上超越了Llama 2，更在推理、代码生成和指令遵循等方面实现了突破，成为了目前最强大的开源大语言模型

Llama 3的优势

Llama 3的主要优势包括：

性能领先： Llama 3在多个行业基准测试中展现了最先进的性能，其8B和70B参数模型在同等规模模型中处于领先地位

‍

推理能力提升： Llama 3在推理、代码生成和指令遵循等方面取得了显著进步，使其更具实用性和可控性

‍

错误拒绝率降低： Llama 3的错误拒绝率大幅降低，使其成为迄今为止最“乐于助人”的模型

‍

开放性： Llama 3秉承开源精神，将模型代码和资源向社区开放，推动人工智能领域的创新和发展。

Llama 3的技术细节

Llama 3的技术细节包括：

模型架构： Llama 3采用标准的解码器Transformer架构，并引入了分组查询注意力机制（GQA）和更大的词汇表（128K tokens），提升了模型的效率和性能

‍

训练数据： Llama 3使用了超过15万亿个token的训练数据，其中包含高质量的非英语数据，覆盖了30多种语言

‍

数据过滤： Llama 3采用了一系列数据过滤机制，包括启发式过滤、NSFW过滤、语义重复数据删除和文本分类器，确保训练数据的质量

‍

规模化训练： Llama 3使用了先进的训练技术，包括数据并行、模型并行和流水线并行，并在定制的24K GPU集群上进行训练，实现了高效的模型训练

‍

指令微调： Llama 3采用了监督微调（SFT）、拒绝采样、近端策略优化（PPO）和直接策略优化（DPO）等技术进行指令微调，提升了模型的性能和安全性。

Llama 3的发布,业内人士也给予了高度评价

Llama 3的发布引发了人工智能社区的热烈讨论，专家和开发者纷纷表达了对Llama 3的期待和赞誉：

Jim Fan博士：

他认为即将推出的Llama 3-400B+模型将是社区获得GPT-4级别模型的重要里程碑，将改变许多研究和初创企业的发展方向。他期待Llama 3-400B+模型在未来几个月内变得更加完善，并相信它将释放巨大的研究潜力，推动整个生态系统的发展

Cameron R. Wolfe博士：

他指出Llama 3证明了训练优秀大语言模型的关键在于数据质量。他详细分析了Llama 3在数据方面做出的努力，包括：

1）15万亿个token的预训练数据: 比Llama 2多7倍，比DBRX的12万亿个还要多

2）更多代码数据: 预训练过程中包含更多代码数据，提升了模型的推理能力

3）更高效的tokenizer: 拥有更大的词汇表（128K tokens），提高了模型的效率和性能。

4）先进的数据质量过滤: 包括启发式过滤、NSFW过滤、语义重复数据删除和文本分类器等，确保训练数据的质量‍

5）对数据混合的实证分析: 寻找最佳的数据混合方式，确保模型在各个任务上的表现‍

6）对后训练数据的质量过滤: 包括SFT、RLHF、DPO等阶段的数据质量，这对模型的性能至关重要

Aston Zhang（Llama 3开发者）：

他分享了Llama 3开发过程中的挑战和经验，强调了数据、计算、基础设施、模型、推理、安全和评估等方面的协同作用。他还透露了Llama 3的一些关键技术细节，例如：

1）最大的模型超过400B参数，且仍在训练中‍

2）选择了8B而不是7B模型，主要原因是升级了tokenizer，词汇表从32K扩展到128K，提高了模型的效率和性能‍

3）预训练上下文窗口设置为8K tokens，未来将发布更长上下文窗口的模型‍

4）除了自动评估，还进行了精心设计的人工评估，以更全面地评估模型的性能。

Bindu Reddy：她认为Llama 3 70B模型的性能令人惊叹，开源社区将在几周内超越GPT-4

‍

Rowan Cheung：

他预测Meta将把GPT-4级别的模型免费提供给超过30亿用户，这将对人工智能的普及和发展产生巨大影响。他认为，这比人们意识到的更重要，因为大多数人甚至还没有使用过ChatGPT，或者只使用过GPT 3.5一次。如果Meta执行得当，他们可以让数十亿人觉得Llama 3比ChatGPT更好，因为他们只尝试过GPT 3.5

‍

结语

Llama 3的发布无疑是Meta在大型语言模型领域取得的又一重大突破。凭借海量的高质量训练数据、先进的模型架构、创新的微调技术以及对安全性的重视,Llama 3展现出了卓越的性能,并有望在未来进一步提升,挑战行业巨头。Meta公司坚持开源开放的理念,也必将推动整个AI生态系统的快速发展

Meta推出了新的网站meta.ai已经集成了Llama 3，现在就可以开始使用了‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

Llama 3详细信息：

https://ai.meta.com/blog/meta-llama-3/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=llama3

https://llama.meta.com/llama3/

⭐星标AI寒武纪，好内容不错过⭐

用你的赞和在看告诉我～

开源羊毛👇👇

继续滑动看下一个

AI寒武纪

向上滑动看下一个

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

“上海王”柯庆施之死的真相

【扎克伯格面向AGI开源】Llama 3重磅发布：全球最强开源大模型，GPT4级别开源权重

Llama 3的优势

Llama 3的技术细节

Llama 3的发布,业内人士也给予了高度评价

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

96岁的朱总理

“上海王”柯庆施之死的真相

生成图片，分享到微信朋友圈

【扎克伯格面向AGI开源】Llama 3重磅发布：全球最强开源大模型，GPT4级别开源权重

Llama 3的优势

Llama 3的技术细节

Llama 3的发布,业内人士也给予了高度评价

您可能也对以下帖子感兴趣